Sarcasm is a form of irony that involves saying or writing something that is opposite or opposite to what one really means, often in a humorous or mocking way. It is often used to mock or mock someone or something, or to be humorous or amusing. Sarcasm is usually conveyed through tone of voice, facial expressions, or other forms of nonverbal communication, but it can also be indicated by the use of certain words or phrases that are typically associated with irony or humor. Sarcasm detection is difficult because it relies on context and non-verbal cues. It can also be culturally specific, subjective and ambiguous. In this work, we fine-tune the RoBERTa based sarcasm detection model presented in Abaskohi et al. [2022] to get to within 0.02 F1 of the state-of-the-art (Hercog et al. [2022]) on the iSarcasm dataset (Oprea and Magdy [2019]). This performance is achieved by augmenting iSarcasm with a pruned version of the Self Annotated Reddit Corpus (SARC) (Khodak et al. [2017]). Our pruned version is 100 times smaller than the subset of SARC used to train the state-of-the-art model.
translated by 谷歌翻译
Transformers are becoming increasingly popular due to their superior performance over conventional convolutional neural networks(CNNs). However, transformers usually require a much larger amount of memory to train than CNNs, which prevents their application in many low resource settings. Local learning, which divides the network into several distinct modules and trains them individually, is a promising alternative to the end-to-end (E2E) training approach to reduce the amount of memory for training and to increase parallelism. This paper is the first to apply Local Learning on transformers for this purpose. The standard CNN-based local learning method, InfoPro [32], reconstructs the input images for each module in a CNN. However, reconstructing the entire image does not generalize well. In this paper, we propose a new mechanism for each local module, where instead of reconstructing the entire image, we reconstruct its input features, generated from previous modules. We evaluate our approach on 4 commonly used datasets and 3 commonly used decoder structures on Swin-Tiny. The experiments show that our approach outperforms InfoPro-Transformer, the InfoPro with Transfomer backbone we introduced, by at up to 0.58% on CIFAR-10, CIFAR-100, STL-10 and SVHN datasets, while using up to 12% less memory. Compared to the E2E approach, we require 36% less GPU memory when the network is divided into 2 modules and 45% less GPU memory when the network is divided into 4 modules.
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
由于现代嵌入式系统和具有受约束资源的移动设备的出现,对机器学习目的的令人难以置信的深度神经网络有很大的需求。当他们的数据处理并存储在外部服务器中,在进一步推动了对本地嵌入式系统的实时推断的需要开发这种有效的神经网络的需要时,对一般公众的隐私和保密性越来越关注。本文呈现的工作范围仅限于使用卷积神经网络的图像分类。卷积神经网络(CNN)是一类深神经网络(DNN)广泛用于通过图像传感器捕获的视觉图像的分析,旨在提取信息并将其转换为有意义的表示,以便输入数据的实时推断。在本文中,我们提出了一种深度卷积神经网络架构的近期变体来改善现有CNN架构对嵌入式系统的实时推断的性能。我们表明,与基线神经网络架构,CondenSenet,通过减少培训网络所需的培训参数和拖鞋,在维护培训的模型尺寸低于3.0 MB之间的平衡和准确性之间的平衡折衷导致前所未有的计算效率。
translated by 谷歌翻译
例如,具有内置处理器的智能边缘设备在功能和物理形式方面,以执行高级计算机视觉(CV)任务,例如图像分类和对象检测。随着自主汽车和无人机,嵌入式系统和移动设备领域的不断进展,对具有受约束计算资源的这些智能边缘设备的实时推断,对极其有效的人工神经网络(ANN)进行了不断增长的需求。在远程区域中具有不可靠的网络连接和数据传输的添加复杂性,最重要的是在本地捕获和处理数据,而不是将数据发送到云服务器以进行远程处理。另一方面,边缘设备由于其廉价的硬件而提供有限的处理能力,以及有限的冷却和计算资源。在本文中,我们提出了一种名为Effcnet的新型深度卷积神经网络架构,其是利用自查询数据增强和深度可分离的卷积策略来改善实时的边缘设备的改进和高效版本的CondenSenet卷积神经网络(CNN),以改善实时推理性能以及减少EffcNet CNN的最终培训的模型大小,可培训参数和浮点操作(拖翼)。此外,广泛的监督图像分类分析在两个基准数据集中进行:CIFAR-10和CIFAR-100,以验证我们提出的CNN的实时推理性能。最后,我们将这些训练有素的重量部署在NXP BlueBox上,这是一个专为自驾驶车辆和无人机设计的智能边缘开发平台,并且结论将是相应的推断。
translated by 谷歌翻译
基于能量的建模是一个有希望的无监督学习的方法,它来自单个模型的许多下游应用。使用“对比方法”学习基于能量的模型的主要困难是从每次迭代的当前能量函数中产生样本。已经廉价地完成了许多进展。然而,所有这样的采样范例运行MCMC针对当前模型,这需要无限的长链来产生来自真正能量分布的样本,并且在实践中存在问题。本文提出了一种替代方法来获取这些样品并避免从当前模型中取样的粗MCC采样。我们通过观察建模分布的演变为(i)能量功能的演变,并(ii)从沿着某种矢量场的这种分布的演变的演变来实现这一目标。随后我们推导出该时间依赖的矢量字段,使得该字段之后的粒子近似分布为当前密度模型。因此,我们将颗粒的演变与学习程序规定的能量函数的演变相匹配。重要的是,与Monte Carlo采样不同,我们的方法靶向有限时间匹配当前分布。最后,与基于MCMC的学习方法相比,我们展示了其经验的有效性。
translated by 谷歌翻译
在本文中,我们考虑了MNL-Bandit问题的上下文变体。更具体地说,我们考虑了一个动态设置优化问题,决策者为消费者提供了一系列产品(各种产品),并在每回合中观察他们的响应。消费者购买产品以最大化其实用性。我们假设一组属性描述了产品,并且产品的平均效用在这些属性的值中是线性的。我们使用广泛使用的多项式logit(MNL)模型对消费者选择行为进行建模,并考虑动态学习模型参数的决策者问题,同时优化累计收入,超过销售范围$ t $。尽管最近这个问题引起了人们的关注,但许多现有方法通常涉及解决棘手的非凸优化问题。他们的理论绩效保证取决于问题依赖性参数,该参数可能非常大。特别是,此问题的现有算法对$ o(\ sqrt {\ kappa d t})$界后后悔,其中$ \ kappa $是问题依赖性常数,可以对属性的数量具有指数依赖性。在本文中,我们提出了一种乐观的算法,并表明遗憾是由$ o(\ sqrt {dt} + \ kappa)$界定的,从而大大提高了现有方法的性能。此外,我们提出了对优化步骤的放松,该步骤允许进行可牵引的决策,同时保留有利的遗憾保证。
translated by 谷歌翻译
本文研究了钢筋学习中随机价值函数的遗为最小化。在表格有限地平线马尔可夫决策过程中,我们引入了一种典型的汤普森采样(TS)-like算法的剪切变体,随机最小二乘值迭代(RLSVI)。我们的$ \ tilde {\ mathrm {o}}(h ^ 2s \ sqrt {at})$高概率最坏情况后悔绑定改善了rlsvi的先前最锐化的最糟糕的遗憾界限,并匹配现有的状态 - 基于最糟糕的TS的遗憾界限。
translated by 谷歌翻译